专利摘要:
整数MDCTが可逆オーディオ符号化に使用される。しかし、整数可逆変換は、信号に対してかなりのラウンディング誤差をそれぞれがもたらす連続したリフティング・ステップに分割される。前述の問題は、符号化する対象の有用な信号のレベルが低いほど、より重大になる。雑音シェーピングなしでは、ラウンディング誤差雑音は、変換された信号の周波数ビン全てに、等しく影響を及ぼす。これは、実際の信号レベルが低い周波数ビンにとって特に問題である。本発明は、可逆コデックのデータ・レートに対する整数可逆変換における各リフティング・ステップを伴う、又は前述の各リフティング・ステップから生じるラウンディング誤差雑音の影響を制限する。変換係数の適応的フィルタ雑音シェーピング・フィルタのフィルタ係数は、現在の時間領域信号特性による個々のリフティング・ステップにおいて適合される。代替策として、自己回帰前置フィルタを可逆変換の前に追加し、前述のエリアにおけるラウンディング誤差の顕著性を低減させるために、低電力での周波数領域のレベルの上昇が可能である。何れの処理も、可逆コデックの圧縮比を更に向上させるよう合成することが可能である。
公开号:JP2011505728A
申请号:JP2010534441
申请日:2008-11-10
公开日:2011-02-24
发明作者:ヤクス,ペーター
申请人:トムソン ライセンシングThomson Licensing;
IPC主号:H03M7-30
专利说明:

[0001] 本発明は、オーディオ信号又はビデオ信号の符号化効率を向上させるための方法及び装置に関する。]
背景技術

[0002] 整数可逆変換(特に、整数MDCT(IntMDCT))は、可逆性又はHD(高品位)オーディオ/ビデオ符号化において使用される。例えば、最近標準化されたMPEG−4SLSコデックはIntMDCTを使用する。]
[0003] 上記手法は、可逆性変換が使用される他の分野においても適用可能であり得る。例えば、整数可逆ウェーブレット変換は、可逆性画像及びビデオ符号化に使用される。何れの整数可逆変換も、問題は、信号にかなりのラウンディング誤差をそれぞれがもたらす連続したステップに変換が分割されるという点にある。前述の問題は、符号化する対象の有用な信号のレベルが低いほど、より重大になる。したがって、ラウンディング誤差雑音は、残差が、元の(又は可逆性若しくはHDの)信号と、その不可逆性符号化バージョン又は標準品位符号化バージョンとの間の誤差信号である残差符号化手法における制約要因である。雑音シェーピングなしでは、ラウンディング誤差雑音は、変換された信号の周波数ビン全てに、等しく影響を及ぼす。これは、実際の信号レベルが低い周波数ビンにとって特に問題である。ラウンディング誤差が支配的になるビンでは、可逆性変換に対する、エントロピ(及びデータ・レート)の大きな増加の点で大きな「ペナルティ」が払われることになる。上記ペナルティは、ラウンディング誤差が優性でない周波数ビンの場合、ずっと低い。]
[0004] 前述の問題の解決策は、Fraunhoferにより、Yoshikazu Yokotani、 Ralf Geiger、Gerald D. T. Schuller、 Soontorn Oraintara、 K. R. Raoによる「Lossless audio coding using the IntMDCT and rounding error shaping,IEEE Transactions on Audio, Speech, and Language Processing, Vol.14, No.6, pp.2201−2211, November 2006」において提案されている。そこでは、特に高周波から低周波にラウンディング誤差寄与を移すために、(変換の小さな整数可逆サブステップを表す)いくつかのリフティング・ステップに固定雑音シェーピング・フィルタを付加することが提案されている。上記著者は、雑音シェーピング・フィルタ係数を求めるために発見的最適化基準を適用する。前述の手法の単純な変形は、MPEG−4 SLSコデックの一部(一次の固定ローパス・フィルタ)である。]
[0005] リフティング手法ベースの整数変換は、整数を整数にマッピングし、可逆的である。前述のリフティングの基本的な考え方は、例えば、一対のフィルタ(h,g)が相補的である(完全な再構成を可能にする)場合、フィルタs毎に、h’(z)=h(z)+s(z2)*g(z)の対(h’,g)も完全な再構成を可能にする。これは、g’(z)=g(z)+t(z2)*h(z)の形式の各対(h,g’)及びフィルタtについてもあてはまる。逆もあてはまる。すなわち、フィルタ・バンク(h,g)及び(h’,g)が、完全な再構成を可能にする場合、h’(z)=h(z)+s(z2)*g(z)である一意のフィルタsが存在する。]
[0006] フィルタ・バンクの前述の変換処理それぞれは、リフティング・ステップと呼ばれる。リフティング・ステップの系列は、交互のリフトを含み得る。すなわち、一ステップでは、ローパスは固定であり、ハイパスは変更され、次のステップでは、ハイパスは固定であり、ローパスは変更され、それにより、同じ方向の連続するステップをマージすることが可能である。]
[0007] 上記問題に取り組む別の手法は、ビデオ符号化の分野において、Min Shi、Shengli Xieによる「ALossless Image Compression Algorithm by CombiningDPCM with Integer Wavelet Transform,IEEE 6th CAS Symp. on Emerging Technologies: Mobile and Wireless Comm., Shanghai, China, May 31 − June 2, 2004」に公表されている。]
[0008] 上記著者は、可逆性変換の前にDPCM前置フィルタを施し、それにより、信号は「白色化され」、よって、(更に「白色の」)ラウンディング誤差雑音は、事実上、信号スペクトルと同様にシェーピングされる。しかし、前述の手法は、いくつかの欠点も有する。すなわち、まず、整数可逆であるためには、前置フィルタは、それ自体にラウンディング誤差を付加しなければならず、これは、符号化性能を低下させる(以下参照)。第2に、著者は、「通常」の順方向DPCMフィルタを施す。しかし、これは、問題の対処にとって最適な選択でない。]
[0009] 平均的に有利であるが、上記固定雑音シェーピングは、個々の信号ブロックに対して、あまり最適といえないことがあり得る。]
発明が解決しようとする課題

[0010] 本発明によって解決しようとする課題は、リフティングを使用して整数可逆変換におけるラウンディング誤差雑音分布を最適化し、かつ/又は、特定のオーディオ信号又はビデオ信号をビットイグザクト符号化する(すなわち、符号化/復号化効率を向上させる)ために必要なデータ・レートを削減することである。前述の課題は、請求項1及び3に記載の方法によって解決される。前述の方法を利用する、対応する装置は請求項2及び4に記載されている。]
課題を解決するための手段

[0011] 本発明は、雑音シェーピングのブロック単位の適応を使用することにより、可逆性コデックのデータ・レートに対する整数可逆変換におけるリフティング・ステップそれぞれからの、又は上記リフティング・ステップによって生じるラウンディング誤差雑音の影響を制限する。]
[0012] 2つの基本的な手法を使用することが可能である。]
[0013] まず、変換又は周波数領域係数の雑音シェーピング・フィルタのフィルタ係数が、現在の時間領域信号特性による個々のリフティング・ステップにおいて適応される。近最適フィルタ係数を供給する新たな解析適応規則が策定されている。更に、更なる(任意の)反復手順は、局所的に最適の係数の組をもたらす。]
[0014] 第2に、自己回帰(すなわち、再帰的)前置フィルタを可逆性変換の前に付加することが可能である。前述のフィルタは、電力が低い周波数領域のレベルの「増加」を明示的に標的にして、前述の領域におけるラウンディング誤差の顕著度を低下させる。前述の前置フィルタは、変換又は周波数領域係数の適応的雑音シェーピング処理として、本発明の、同じ適応規則を共有する。]
[0015] 効果的には、前述の2つの基本的な処理は、可逆性コデックの圧縮比を更に向上させるよう組合せることが可能である。フィルタ係数が算出されるオーディオ又はビデオ信号サンプル・フレームは、フィルタ係数が施される対応する変換係数ブロックまで、オーディオ又はビデオ信号サンプル・ブロックと異なる長さを有し得る。]
[0016] あるいは、又は更に、サンプル・フレームは、サンプル・ブロックに対して時間的に移動させることが可能であり、この実施例は、フィルタ係数を復号化器側に伝送しなくてよいが、相応に、復号化器側において算出することが可能であるという利点を有する。]
[0017] フィルタ係数を信号サンプル・フレームから直接、算出する代わりに、符号化処理において(例えば、オーディオ又はビデオ信号符号化器のフィルタ・バンク部において)利用可能であり得る誤差信号又は残差信号から算出することも可能である。]
[0018] 基本的に、本発明の符号化方法は、オーディオ又はビデオ信号の符号化効率の向上に適している。上記信号は、上記信号のサンプル・ブロック毎の整数可逆変換を使用して処理され、整数変換のサブステップを表すリフィティング・ステップを使用して行われ、上記リフティング・ステップは、ラウンディング処理を含み、リフティング・ステップによって生じるラウンディング誤差の雑音シェーピングが行われ、上記方法は、オーディオ又はビデオ信号の符号化効率を向上させることに適しており、前記信号は、前記信号のサンプル・ブロック毎に整数可逆変換を使用して処理され、整数変換は、前記整数変換のサブステップを表すリフティング・ステップを使用して行われ、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われ、前記方法は、
リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数変換する工程を含み、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタのフィルタ係数は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出される。]
[0019] 基本的に、本発明の符号化装置は、オーディオ又はビデオ信号の符号化効率の向上に適している。上記信号は、前記信号のサンプル・ブロック毎に整数可逆変換を使用して処理され、前記整数変換は、前記整数変換のサブステップを表すリフティング・ステップを使用して行われ、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われ、前記装置は、
リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数変換するよう適合された手段であって、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させる手段と、
対応する雑音シェーピング・フィルタとを備え、前記対応する雑音シェーピング・フィルタのフィルタ係数はフレーム単位で前記オーディオ又はビデオ信号サンプルから導き出される。]
[0020] 基本的に、本発明の復号化方法は、オーディオ又はビデオ信号の符号化/復号化効率の向上に適している。符号化器側で、前記信号が、前記信号のサンプルのブロック毎に整数可逆変換を使用して処理されており、前記整数変換は、前記整数変換のサブステップを表すリフティング・ステップを使用して行われており、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われており、前記サンプル・ブロックは、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して整数変換されており、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタのフィルタ係数は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出され、前記符号化オーディオ又はビデオ信号の復号化は、
リフティング・ステップ及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数逆変換する工程とを含み、前記逆変換は、変換係数のブロックを処理し、出力サンプル値の対応するブロックを供給し、前記雑音シェーピングは、前記逆変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の逆変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタのフィルタ係数は、フレーム単位で前記逆変換されたオーディオ又はビデオ信号サンプルから導き出される。]
[0021] 基本的に、本発明の復号化装置は、オーディオ又はビデオ信号の符号化/復号化効率の向上に適している。オーディオ又はビデオ信号の符号化/復号化効率を向上させる装置であって、符号化器側で、前記信号が、前記信号のサンプルのブロック毎に整数可逆変換を使用して処理されており、前記整数変換は、前記整数変換のサブステップを表すリフティング・ステップを使用して行われており、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われており、
前記サンプル・ブロックは、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して整数変換されており、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換ブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタのフィルタ係数は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出され、前記装置は、前記符号化オーディオ又はビデオ信号の復号化に適しており、前記装置は、
リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数逆変換するよう適合された手段であって、前記逆変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記逆変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の逆変換ブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させる手段と、
対応する雑音シェーピング・フィルタとを備え、前記雑音シェーピング・フィルタのフィルタ係数はフレーム単位で前記逆変換されたオーディオ又はビデオ信号サンプルから導き出される。]
図面の簡単な説明

[0022] TDACの場合、ギブンズ回転の分解が3つの連続リフティング・ステップに分解され、各リフティング・ステップはラウンディング処理を伴うことを示す図である。
2つの並列入力信号(ステレオの場合)に施される複数次元のリフティング手法であって、2つの入力信号x及びyは、TDACブロック内のラウンディング誤差雑音を既に受けていることを示す図である。
雑音シェーピングを使用したラウンディングを示す図である。
既知の不可逆ベースの可逆的な符号化器及び復号化器を示す基本ブロック図である。
整数MDCTを分解した図である。
雑音シェーピングなしの、既知の単一の複数次元のリフティング・ステップを示す図である。
単一の複数次元リフティング・ステップにおける既知の雑音シェーピングを示す図である。
本発明の適応的雑音シェーピングIntMDCTのスタンドアロン変形を示す図である。
本発明の適応的雑音シェーピング逆IntMDCTのスタンドアロン変形を示す図である。
本発明の適応的雑音シェーピングIntMDCT、スケーラブル対可逆変換符号化器を示す図である。
本発明の適応的雑音シェーピング逆IntMDCT、スケーラブル対可逆変換符号化器を示す図である。
本発明の適応的前置フィルタIntMDCTのスタンドアロン変形を示す図である。
本発明の適応的前置フィルタ逆IntMDCTのスタンドアロン変形を示す図である。]
[0023] 本発明の効果的な更なる実施例は、それぞれの従属請求項に記載している。]
[0024] 本発明の例示的な実施例は、添付図面を参照して説明する。]
[0025] 整数MDCT(IntMDCT)は、元のPCMサンプルのビットイグザクト再構成を可能にする通常のMDCTアルゴリズムの近似である。前述の構成は、ビットイグザクト可逆である、ステップ単位のリフティング・ステップへのアルゴリズム・ステップ全ての分解によって達成される。更なる情報は、例えば、Ralf Geiger、 Yoshikazu Yokotani、 Gerald Schuller、 Jurgen Herreによる「Improved integer transforms using multi−dimensional lifting, Proc. ofICASSP, volume 2, pages 17−21, Montreal, Canada, May 2004」で得ることができる。]
[0026] 可逆(すなわち、ビットイグザクト)再構成特性は、付加誤差を犠牲にして得られる。すなわち、各リフティング・ステップにおけるラウンディング処理により、ラウンディング誤差雑音が付加される。本発明の目的は、前述のラウンディング誤差の分散を数量化し、可逆コデックの圧縮比に対するその影響を評価することである。更に、雑音シェーピング・フィルタ及び/又は前置フィルタは、最小エントロピを求めて最適化するために使用される。固定フィルタ及び適応的フィルタの解決策を開示する。]
[0027] A)ラウンディング誤差
ラウンディング誤差は、IntMDCTにおけるリフティング・ステップの大半においてもたらされる(詳細及び導出については、Y. Yokotani、 R. Geiger、 G. D. T. Schuller、 S. Oraintara、 K. R. Raoによる「Lossless audio coding using the IntMDCT and rounding error shaping,IEEE Transactions on Audio, Speech, and Language Processing, 14 ( 6): 2201−2211, November 2006」を参照されたい。)。以下の項では、ラウンディング誤差の原因を簡潔に要約し、特定の定義を表す。]
[0028] A.1)時間領域エイリアス除去(TDAC)
3つのリフティング・ステップへのウィンドウイング処理(ギブンズ回転)及びTDACの分解は図1に示す。入力オーディオ又はビデオ信号のブロック又はセクション毎の前述のウィンドウイング処理は、例えば、正弦関数又は余弦関数の重み付け及び50%重なったウィンドウイングを使用することによる、ブロック又はセクションにおける振幅又は大きさの重み付けに関係する。対応する相加性雑音n1、n2、n3の値としての3つのラウンディング処理の解釈により、
c’=a cosα−b cosα+n1cosα+n2csα+n3 (1)、
d’=a sinα+b cosα+n1sinα+n2 (2)、及び、
csα=(cosα−1)/sinα (3)
がもたらされ、角度αの組はウィンドウ関数を定義する。正弦ウィンドウの場合、角度は、



で定義される。一般に、0≦α≦π/4である。] 図1
[0029] ラウンディング誤差の冪数は、ギブンズ回転の回転角度αに依存する(c及びdはギブンズ回転の、量子化されていない所望の出力を表す):
E{(c’−c)2}=(1/12)(cos2α+cs2α+1)
E{(d’−d)2}=(1/12)(sin2α+1) (4,5)
前述の通り、図1は、連続する3つのリフティング・ステップへのギブンズ回転の分解を示し、各リフティング・ステップはラウンディング処理を伴う。入力値はa及びbであり、出力値はc’及びd’である(式(1)及び(2))。Q1、Q2及びQ3は量子化ステップを表す。] 図1
[0030] 第1のリフティング・ステップはa+Q1(csα*b)を算出し、
第2のリフティング・ステップはb+Q2(sinα[a+Q1(csα*b)])
を算出し、第3のリフティング・ステップは、
a+Q1(csα*b)+Q3[csα(b+Q2(sinα[a+Q1(csα*b)]))]を算出する。]
[0031] 正弦ウィンドウの場合、整数MDCTのTDAC部分からのラウンディング誤差雑音の平均冪数は約1.6/12である。この値は理論的に、利用されたα値全てについて、式
(1/2)E{(c’−c)2}+(1/2)E{(c’−c)2}を平均化することによって理論的に導き出すことが可能である。前述の平均冪数値は、シミュレーションによって更に検証されている。]
[0032] A.2)多次元リフティング手法:ステレオ・バージョン
二並列入力信号多次元リフティング手法又はステレオ多次元リフティング手法を図2に表す。2つの入力信号x及びyは既に、TDACブロックTDAC1及びTDAC2におけるラウンディング誤差雑音を既に受けている(図1)。符号化器側TDACブロックの出力ベクトルは、下部分及び上部分それぞれのx及びyによって表される。次いで、(復号化器の前の)IntMDCT領域におけるそれぞれの符号化器出力ベクトルは、
X’=DCTIV{x}+DCTIV{n4}−n5 (6)
Y’=DCTIV{x}+DCTIV{n5}+n6 (7)
として構成され、
「DCTIV」は、タイプIVのDCT(すなわち、整数MDCT)を表し、n4、n5及びn6は量子化誤差信号を表し、Q4、Q5及びQ6は量子化処理を表す。ブロック図によれば、結果として生じる「スペクトル」それぞれは、周波数領域及び時間領域の誤差を含む特定の相加性雑音、及び実際のMDCTスペクトル(例えば、DCTIV{x})の混合である。復号化器側では、3つの変換リフティング・ステップが逆転させられ、対応するTDACブロックTDAC3及びTDAC4がそれに続く。符号化における中間及び最終生成ベクトルの曖昧な時間周波数特性により、理解及びフィルタ最適化が困難になる。] 図1 図2
[0033] A.3)前置フィルタ
好ましくは、ディジタル・フィルタによる入力信号の前置処理は、TDAC処理の前で行われる。これは、自動回帰(AR)又は移動平均(MA)フィルタによって実現することが可能である。前置フィルタは、整数可逆的に実現される。このことは、フィルタ特性が厳密に最小フェーズでなければならないということを意味する。更に、符号化器及び復号化器において施されるフィルタ構造は完全に逆数でなければならない。したがって、フィルタ処理は、整数値への中間値(予測器の出力)の少なくとも1つのラウンディング処理を含む。これは、前置フィルタが、更なるラウンディング誤差雑音を常に伴うということを意味する。]
[0034] IntMDCT内の雑音シェーピングの最適化と、前置フィルタの最適化との間に強い類似性が存在している。相違点は、前置フィルタが最終量子化段の影響に正の影響を及ぼすという点である(図2中のQ5/n5及びQ6/n6)。Qxは、非線形量子化処理の数学的記述であり、nxは結果として生じる相加性量子化誤差であり)、同様なフィルタ次数の計算量上の複雑度は低く、前置フィルタは、更なるラウンディング誤差をもたらす。] 図2
[0035] B)雑音シェーピングによるラウンディング
ラウンディング誤差の周波数特性は、図3に示すような雑音シェーピング・フィルタを使用してシェーピングすることが可能である。量子化器Qの出力信号y(k)から生じる元の量子化雑音



は、インパルス関数a(k)及び遅延Tを有する有限インパルス応答(fir)フィルタによって求められ、フィルタリングされる。相応にフィルタリングされた雑音



は、入力信号x(k)に戻される。結局、雑音シェーピング・フィルタa(k)が次数pを有し、因果的であるものとする。次いで、先行する遅延処理を含めて、フィルタは以下の伝達関数を有する。] 図3
[0036] ここで、A(z)は、a(k)のz変換を表し、αλはフィルタ係数である。フィルタ係数αλ(λ=l...p)は、種々の周波数特性を得るよう自由に修正することが可能である。]
[0037] 特に興味深いのは、離散MDCTの中心周波数に対する周波数応答である。iが、離散周波数指数(i=0,1,…,N−1)を表す場合、MDCTのi番目の周波数ビンの中心周波数は、角表現でΩi=(2π(i+0.5))/2Nで表され、ここで、NはMDCTの長さである。]
[0038] 雑音シェーピング・フィルタの周波数応答は、



になる。その後の以下の算出では、γ番目のフィルタ係数αγの周波数応答の偏微分が必要である(式13、14,15)



雑音シェーピング・フィルタリングが理由で、更に、ラウンディング誤差雑音の時間領域特性が修正される。相関をもたらすことに加えて、雑音シェ—ピング・フィルタは、結果として生じる雑音信号n(k)の分散を増加させる。]
[0039] この導出では、元の量子化雑音の自己相関は、原点の外では、ゼロとみなされる。すなわち、γ≠0の場合、E{n(k)n(k−γ)}=0である。α≠0により、時間領域における実効上の量子化雑音の冪数が増加する。]
[0040] C)ラウンディング誤差雑音及び微分エントロピ
以下の検討を単純にするために、入力信号が、ガウス確率密度関数を有するランダム雑音であり、少なくとも短期静止状態にあるものとする。しかし、入力信号の周波数特性は制限されない。]
[0041] x(k)が入力信号の時間領域表現を表すものとする。前述のランダム入力信号が通常の(浮動小数点)MDCTによって変換された場合、周波数領域表現X(i)(短いXi)が得られ、iは周波数係数を表す。フレーム係数は、話の理解を容易にするために省略している。入力信号は静止ランダム雑音とみなされるので、MDCTビンも、ランダムであり、個々の分散



を有する。i番目の周波数ビンの微分エントロピは、



である。]
[0042] リフティング・ステップ処理においてラウンディング誤差雑音を加えることにより、各周波数ビンに個々の雑音成分が加えられる。i番目のビンにおける雑音の分散は



で表され、各ビンにおける信号成分Xi及び雑音成分Niは互いに独立であるものとする。その場合、雑音を有する周波数ビンの微分エントロピは、



である。すなわち、微分エントロピは、個々の信号対雑音比に依存するペナルティhi+を「被る」。周波数範囲全体にわたり、前述の個々のペナルティは、各ブロックを少なくとも符号化するために必要なグロス・ビット・レートを増加させるよう積算される(尚、量子化及び符号化後のビット・ストリームのビット・レートと微分エントロピとの間の単純化された直接マッピングを前提とする。)実際には、最適以下のエントロピ符号化等のために、更なる喪失が存在し得る。]
[0043] 以下の導出は、ブロック毎の前述のグロス・ペナルティを最小にする雑音シェーピング・フィルタの適応規則を得ることを目的とする。]
[0044] 前述のB項の導出によれば、i番目の周波数ビンにおける雑音成分の分散は、



のように、モデリングされ、
Ωi=(2π(i+0.5))/2Nであり、スカラー係数k2は、元のラウンディング誤差雑音



の分散を表す任意の係数である。γ番目の係数αλの偏微分は、



である、上記式13乃至15の導出を参照されたい。]
[0045] C.1)近似解
ここで、係数αλは、合計ペナルティH+を最小にするために最適化される。話を単純にするために、低量子化雑音がまず仮定される。すなわち、



が仮定される。ここで、log(l+x)≒xが使用される。これは、x<<lの場合にあてはまる。信号処理の点では、これにより、周波数ビン全てにおいて、



があてはまるものとする。全部のペナルティH+は、



になる。]
[0046] 係数αλの偏微分により、



が得られる。]
[0047] 前述の偏微分をゼロにセットすることは、エントロピ・ペナルティが最小の係数を求めるために解かなければならない等式の組につながる。]
[0048] この時点で、p個の未知数を解くためのp個の等式が存在している。話の理解のために、等式の組は行列ベクトル表記で表すことが可能である。以下のベクトル及び行列を定義する。]
[0049] ここで、略称



を使用している。]
[0050] 以上の等式の組により、線形等式系



が得られる。]
[0051] これは、テプリッツ行列Mの反転によって解くことが可能である。]
[0052] 数量R(κ)は、入力信号x(k)の逆スペクトルとの信号の自己相関関数と等価である。その結果、上記最適化手法は、通常の等式を使用した線形予測フィルタのブロックベースの適応に強く類似する(例えば、P. Vary及びR. Martinによる「Digital Speech Transmission: Enhancement, Coding and Error Concealment, John Wiley & Sons Ltd, 2006, Sec. 6.2」と比較されたい。)。したがって、擬似自己相関値R(κ)の計算の後、線形予測フィルタを最適化するための数値手法の全部の集合(例えば、計算量的に効率的なレビンソン・ダービン・アルゴリズム)を利用することが可能である。]
[0053] 適応的雑音シェーピング・フィルタのフィルタ係数は、信号サンプル・フレームの逆電力スペクトルを計算することによって求められ、フィルタ係数は、前述のフィルタ係数に対応する全極フィルタの周波数応答と逆電力スペクトルとの間の平均スペクトル距離を最小にするように最適化される。すなわち、フィルタ係数の最適化は、信号サンプル・フレームの逆電力スペクトルに基づいた線形予測解析によって行われる。]
[0054] 逆電力スペクトルは、フィルタ係数の最適化が行われる前に擬似自己相関係数に変換することが可能である。]
[0055] c.2)厳密な解に向けて
先行する項では、線形最適化問題を得るために近似が使用される。最も厳密な解を達成するためには、エントロピ・ペナルティを表すために、厳密な項を使用するものとする。]
[0056] γ番目のフィルタ係数の偏微分により、項



がもたらされる。]
[0057] 残念ながら、前述の項は非線形である。]
[0058] という単純な解析解を求めることは可能でない。しかし、最適解に向けて反復するための数値手法を施すことが可能である。例えば、反復勾配降下最適化処理又は反復最急降下処理を、最適化されたフィルタ係数の更なる精緻化のために実現することが可能である。前述の処理では、係数の組a=[a1,a2,・・・ap]Tは、最急(負の)勾配
a(μ+1)=a(μ)−θgrad H+(a(μ)) (45)であり、ここで、μは反復係数を表し、勾配は、



として定義される。]
[0059] スカラー係数θは、ステップ・サイズを定義する。]
[0060] 適応の速度を制御するために使用することが可能である。反復は、例えば、係数の組が安定解に収束するまで、繰り返される。大きすぎるステップ・サイズは、不安定な収束挙動につながり得る。前述の処理により、p次元の最適化問題に対する局所解が求められる。最後の結果は、反復アルゴリズムの始点に応じて(すなわち、当初の係数の組a(0)に応じて)異なり得る。一貫した結果は、前の項において記載した近似解で始めることによって得られている。しかし、H+を最小化するための元の問題の大局的な最適値を解決策が表すということは保証されていない。]
[0061] 更に、最後の係数の組は、最小フェーズ・フィルタ応答をもたらすということは保証されない。前置フィルタ内で施される前に、結果が、最小フェーズ特性について検査されるということをこのことは意味する。]
[0062] この適応的雑音シェーピングの影響は、入力信号ブロック又はセクションのうちの現行のものにおける低レベルの振幅のサンプルからのラウンディング雑音を低減させる一方、現行のブロック又はセクションにおける高レベルの振幅のサンプルからのラウンディング雑音を増加させるということである。「低レベルの振幅」及び「高レベルの振幅」は、例えば、ブロックにおける平均振幅レベル又はブロックの閾値振幅レベルよりも小さいか大きい。]
[0063] 上記最適化は、移動平均雑音シェーピング・フィルタの適応に関してあてはまる。効果的には、同じ適応規則は、自己回帰(全極)前置フィルタの最適化にあてはまり得る。]
[0064] C.3)移動平均(MA)前置フィルタ
フィルタ構造に関し、移動平均(有限インパルス応答)前置フィルタの最適係数を導き出す場合、前述の処理は、「古典的な」プリエンファシス又は線形予測に類似している。しかし、最適化基準は、前述のよく検討されたシナリオの場合と違って、本発明の課題の場合、異なる。]
[0065] 前置フィルタリングの結果として、MDCT領域における信号の別の電力スペクトルを次に観測する。]
[0066] が



の代わりに得られる。前置フィルタに加えて相加性雑音シェーピングが施されない場合、MDCT領域内のラウンディング誤差雑音は白色である。その場合、雑音電力スペクトルは、定数



である。よって、最適化基準は、



で定義される。]
[0067] |G(i)|2の定義は変更されない。γ番目のフィルタ係数の近似の偏微分により、項がもたらされる。]
[0068] やはり、上記項は非線形であり、最適化問題に対する解析解は導き出すことが困難である。しかし、上記項において規定された同じ反復的な「最急降下」最適化手順を施すことが可能である。]
[0069] 反復的な精緻化処理が選ばれた場合、上記使用された近似も飛ばすことが可能である。厳密な基準で始めた場合、以下の項



が、αγの偏微分の結果である。]
[0070] 上記2つの反復的適応規則の何れの場合にも、大局的な最適値が得られるということは保証されないことがやはりあり得る。その代わりに、上記方法は局所最適値に向けて収束し、最終結果は、初期解に強く依存する。]
[0071] EBU−SQAM CDからの実際のオーディオ・データ上の詳細なシミュレーションは、本発明の処理を施した場合に、期待された向上を表した。他のものに対して性能は、(16ビットの信号を前提とすれば、)0.2%超だけ、増加している。]
[0072] D)ステレオIntMDCTへの適用
一般に、左チャネル及び右チャネルについて別個の最適化が施され、おおよそ、



であるということがラウンディング誤差全てについて仮定された場合、ラウンディング誤差の原因全てが互いに独立であるとして扱うことが可能である。したがって、TDAC処理からのn1、n2、n3に対する雑音シェーピング・フィルタの適合、及び多次元リフティング手法の第1段からのn4に対する雑音ノイズシェーピング・フィルタの適合は単純であり、セクションC.lからの近似解を使用することが可能である。n6の場合(すなわち、多次元リフティング手法の最終段の場合)、雑音シェーピングは何ら行わないものとする。]
[0073] 問題は、n5の適合のための解をどのようにして求めるかということである。前述の量子化雑音には2倍の影響がある。まず、それはXに(すなわち、左チャネルに)直接加えられ、第2に、その周波数変換はYに、すなわち、右チャネルに加えられる。したがって、「通常の」近似適合規則を使用して、雑音シェーピングなしと、完全な雑音シェ—ピングとの間のトレードオフを求めるものとする。]
[0074] ラウンディング誤差雑音n5のペナルティは2つの加数を含む。]
[0075] γ番目の係数の微分は、



をもたらす。前述の項をゼロにセットすると、



につながる。それにより、修正された適合規則が影響を受ける。]
[0076] セクションC.1と比較して、唯一の差は、Rx(0)を加えることにより、主対角線を修正するというものである。前述の種の処理は、線形予測フィルタの適合において時には施される、(例えば、J. D. Markel、 A. H. Grayによる「Linear Prediction of Speech,Springer−Verlag,Berlin,Heidelberg,New York,1976」記載の)白色雑音補正に類似している。]
[0077] E)符号化/復号化における本発明の適用
話の理解を容易にするために、前述の従来技術の詳細を、本発明に鑑みて説明する。]
[0078] 不可逆ベースの可逆符号化の既知の基本的な原理を図4に表す。図4の左側の符号化部分では、PCMオーディオ入力信号SPCMは、不可逆符号化器81を介して、不可逆復号化器82まで、かつ、不可逆ビット・ストリームとして復号化部分(右側)の不可逆復号化器85まで進む。不可逆的な符号化及び復号化を使用して信号を無相関化する。復号化器82の出力信号が、減算器83において入力信号SPCMから除去され、結果として生じる差信号は、不可逆符号化器84を介して拡張ビット・ストリームとして不可逆復号化器87に流れる。復号化器85及び87の出力信号を合成して(86)、元の信号SPCMを回復する。] 図4
[0079] この基本原理は、欧州特許第0756386号明細書及び米国特許6498811号明細書に開示されており、P. Craven、 M. Gerzonによる「Lossless Coding for Audio Discs, J. Audio Eng. Soc, Vol.44, No.9, September 1996」、及びJ. Roller、 Th、 Sporer、 K. H. Brandenburgによる「Robust Coding of High Quality Audio Signals,AES 103rd Convention, Preprint 4621, August 1997」にも開示されている。]
[0080] 不可逆符号化器では、PCMオーディオ入力信号SPCMは、解析フィルタ・バンク、及びサブバンド・サンプルの量子化を介して符号化処理に進む。量子化は、信号SPCMを受信し、かつ、解析フィルタ・バンクから対応する情報を受信し得る知覚モデルによって制御される。復号化器側では、符号化された不可逆ビット・ストリームが復号化され、結果として生じるサブバンド・サンプルは合成フィルタ・バンクを介して進む。上記合成フィルタ・バンクは、復号化された不可逆PCM信号を出力する。不可逆的な符号化及び復号化の例は、ISO/IEC11172—3(MPEG−Iオーディオ)標準において詳説されている。]
[0081] 図5中の整数MDCTの既知の分解では、入力信号x(k)及びy(k)はそれぞれ、固定雑音シェーピングNSを備えたTDAC、及び固定雑音シェーピングNSを備えたDCTIVを通って流れ、出力信号X(i)及びY(i)が供給される。ステレオ・バージョンは、R. Geigerらによる「Proc. ofICASSP, May 2004」の上述の論文のように、一例として示されている。TDACは、3つのステップT*1乃至T*3においてチャネル毎に行われる。DCTIVは、描かれた段を使用して行われる。ここで、D*1乃至D*3はリフティング・ステップ(図2)であり、Pは、(ラウンディング処理なしの)一チャネルの置換及び符号反転である。リフティング・ステップは、「*」でマーキングされ、ラウンディング処理を必要とする。] 図2 図5
[0082] 従来技術では、固定雑音シェーピングは、好ましくは、T*1、T*2、T*3及びD*1において、かつ、任意的にはD*2において実現される。本発明によれば、適応的雑音シェーピングは、ステップ/段T*1、T*2、T*3及びD*1において実現され、かつ任意的にはステップ/段D2において実現される。]
[0083] 図6は、入力信号ベクトルx(0)、...、X(N)の雑音シェーピングなしの既知の単一の多次元リフティング・ステップを示し、それにより、出力信号ベクトルx(N+1), ..., x(2N)が得られる。] 図6
[0084] 図6に基づき、図7は、単一の多次元リフティング・ステップにおける既知の雑音シェーピングを示す。これは、T*1、T*2、T*3及びD*1にあてはまり、任意的には、図5のIntMDCTアルゴリズムにおけるD*2にあてはまる。] 図5 図6 図7
[0085] 図5に基づき、図8は、本発明の適応的雑音シェーピングIntMDCTのスタンドアロン変形を示す。入力信号x(k)から、フィルタ適応パラメータ又は係数は、フィルタ適応ステップ又は段121において算出される。算出されたフィルタ・パラメータ又はフィルタ係数h(k)は、適応的雑音シェーピング・フィルタリングを備えたTDAC及び適応的雑音シェーピング・フィルタリングを備えたDCTIVを含む整数MDCTステップ又は段123に供給される。フィルタ適応ステップ又は段121は、復号化器の対応するサイド情報122も供給し得る。] 図5 図8
[0086] 図8に基づき、図9は、本発明の適応的雑音シェーピング逆IntMDCTのスタンドアロン変形を示す。復号化器入力信号X(i)は、適応的雑音シェーピングを備えた逆TDAC及び適応的雑音シェーピングを備えた逆DCTIVを含む逆整数MDCTステップ又は段133を介して進む。その出力信号x(k)から、フィルタ適応パラメータ又は係数がフィルタ適応ステップ又は段131において算出される。算出されたフィルタ・パラメータ又は係数h(k)はステップ/段133に供給される。フィルタ適応ステップ又は段131は、符号化器から、対応するサイド情報122を受信し得る。前述の場合、復号化器出力信号x(k)は、ステップ/段131に必要でないことがあり得る。] 図8 図9
[0087] 図8及び図9による処理は、例えば、MPEG−4SLS非コアなどのスタンドアロン可逆コデックに適用可能である。] 図8 図9
[0088] 図10は、適応的な雑音シェーピングIntMDCTを使用した本発明の、可逆にスケーラブルな変換の符号化器のブロック図を示す。ここで、可逆にスケーラブルであるということは、ビット・ストリームが、少なくとも2つの階層レイヤ(1つは、不可逆コア・コデック(例えば、AAC又はmp3)に対応し、1つは、第1のレイヤとともに元のPCMサンプルを表す)を含むという意味である。一方で、入力信号x(k)は、変換符号化器144(例えば、AAC符号化器)、任意のマッピング・ステップ又は段146、及びラウンディング又は量子化ステップ若しくは段147を介して、減算器140に進む。前述のステップ/段は、図4中の不可逆符号化器81に含まれる。変換符号化器144は、不可逆符号化器ビット・ストリームの符号化信号148を供給する。] 図10 図4
[0089] 他方、入力信号x(k)は、整数MDCT143を介して、減算器140の他方の入力に進む。整数MDCT143の場合、本発明の適応的雑音シェーピングが使用される。すなわち、整数MDCT143は、適応的雑音シェーピング・フィルタリングを備えたTDAC及び適応的雑音シェーピング・フィルタリングを備えたDCTIVを含む。符号化器144からの対応する情報(例えば、量子化された変換係数、量子化器のパラメータ、及び、場合によっては、元の変換係数)を使用すれば、残差推定ステップ又は段145では、前述のフィルタ適応ステップ又は段141を制御するために使用される残差信号(時間領域又は周波数領域)が推定される。算出されたフィルタ・パラメータ又は係数h(k)がステップ/段143に供給される。]
[0090] 減算器140では、ステップ/段147の出力信号が整数MDCT143の出力信号から減算され、それにより、残差信号R(i)が供給される。信号R(i)が必要に応じて符号化される(図4中の可逆符号化器84)。] 図4
[0091] 図8と違って、フィルタ適応ステップ又は段141は、復号化器の対応するサイド情報を供給しなくてよい。適応を復号化器側で行うことが可能であるからである。] 図8
[0092] 図11は、適応的雑音シェーピング逆IntNDCTを使用した本発明の、可逆にスケーラブルな変換復号化器のブロック図を示す。変換符号化器ビット・ストリームからの復号化器入力信号158は、変換復号化器154(例えば、AAC又はmp3復号化器)、任意のマッピング・ステップ又は段156、及びラウンディング又は量子化ステップ若しくは段157を介して合成器150に進む。] 図11
[0093] 合成器150は、拡張ビット・ストリームからの復号化残差入力信号R(i)と、ステップ/段157出力信号を合成する。合成信号X(i)は、図4におけるSPCMに対応する、可逆復号化器出力信号x(k)を出力する逆整数MDCT153を介して進む。逆整数MDCT153の場合、本発明の適応的雑音シェーピングが使用される、すなわち、整数MDCT143は、適応的雑音シェーピング・フィルタリングを備えたTDAC及び適応的雑音シェーピング・フィルタリングを備えたDCTIVを含む。復号化器154からの対応する情報(例えば、量子化された変換係数、量子化器のパラメータ、及び、場合によっては元の変換係数)を使用すれば、残差推定ステップ又は段155では、前述のフィルタ適応ステップ又は段151を制御するために使用される残差信号(時間領域又は周波数領域における)が推定される。算出されたフィルタ・パラメータ又は係数h(k)はステップ/段153に供給される。] 図4
[0094] 図9と違って、フィルタ適応ステップ又は段151は、復号化器の対応するサイド情報を受信しなくてよい。適応を復号化器側において行うことが可能であるからである。] 図9
[0095] 図10及び図11による処理は、例えば、MPEG−4 SLSに適用可能である。] 図10 図11
[0096] 図12は、本発明の適応的前置フィルタIntDCTのスタンドアロン変形のブロック図を示す。一方で。入力信号x(k)はフィルタ適応ステップ又は段161に供給される。このステップ/段の出力信号は、フィルタ特性ステップ/段168のフィルタ・パラメータ又は係数h(k)を提供する。他方で、入力信号x(k)は、合成器160を介して整数MDCTステップ又は段163(雑音シェーピングは行われない)に進む。ここで、ビット・ストリームにおける伝送のために符号化される対象の出力信号X’(i)を供給する。合成器160の出力信号は、フィルタ特性ステップ又は段168及び量子化器169を介して合成器160の他方の入力に進む。図8と同様に、フィルタ適応ステップ又は段161は、復号化器の対応するサイド情報162も供給し得る。] 図12 図8
[0097] 図13は、逆IntMDCTに続く、本発明の適応的ポストフィルタのスタンドアロン変形のブロック図を示す。ビット・ストリームから復号化された復号化器入力信号X(i)は逆整数MDCTステップ又は段173を介して進む。雑音シェーピングは行われない。前述のステップ/段の出力信号は、合成器170に供給される。これは出力信号x(k)を供給する。出力信号x(k)はフィルタ適応ステップ又は段171に供給され、これは、フィルタ特性ステップ/段178のフィルタ・パラメータ又は係数h(k)を供給する。逆整数MDCTステップ又は段173の出力信号は、フィルタ特性ステップ又は段178及び量子化器179を介して合成器170の他方の入力に進む。] 図13
[0098] フィルタ適応ステップ又は段171は、符号化器から、対応するサイド情報162も受信し得る。前述の場合には、復号化器出力信号x(k)は、ステップ/段171に必要でないことがあり得る。]
[0099] 図12及び図13による処理は、例えば、MPEG−4SLS非コアのようなスタンドアロン可逆コデックに適用可能である。] 図12 図13
[0100] 効果的には、最適化された適応的雑音シェーピング処理は常に、前述のMPEG−4SLSにおいて実現される単純な低域通過雑音シェーピング処理、又は無雑音シェーピングよりも良好な性能をもたらす。本発明によれば、低次の適応的雑音シェーピングが実現される。効果的には、その場合、フィルタ係数の適応は単純であり、計算量の増加は非常に緩やかである。]
[0101] 本発明は、ラウンディング誤差雑音スペクトルをシェーピングすることにより、データ・レートを管理し、制限することに資する。]
[0102] 本発明は、連続したリフティング・ステップへの分解が関係する限り、可逆符号化に適用可能である。]
実施例

[0103] 本発明によって符号化されたディジタル・オーディオ又はビデオ信号は、記憶媒体(例えば、光ディスク、ソリッドステート・メモリ又はハード・ディスク)上に記憶又は記録することが可能である。]
权利要求:

請求項1
オーディオ又はビデオ信号(x(k))の符号化効率を向上させる方法であって、前記信号は、前記信号(x(k))のサンプル・ブロック毎に整数可逆変換(DCTIV)を使用して処理され、整数変換は、前記整数変換(DCTIV)のサブステップを表すリフティング・ステップを使用して行われ、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われ、前記方法は、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数変換する工程(123、143、163)を含み、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタ(168、169、160)のフィルタ係数(h(k))は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出される(121、141、161)方法。
請求項2
オーディオ又はビデオ信号(x(k))の符号化効率を向上させる装置であって、前記信号は、前記信号(x(k))のサンプル・ブロック毎に整数可逆変換(DCTIV)を使用して処理され、前記整数変換は、前記整数変換(DCTIV)のサブステップを表すリフティング・ステップを使用して行われ、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われ、前記装置は、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数変換するよう適合された手段(123、143、163)であって、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させる手段と、対応する雑音シェーピング・フィルタとを備え、前記雑音シェーピング・フィルタのフィルタ係数(h(k))はフレーム単位で前記オーディオ又はビデオ信号サンプルから導き出される装置。
請求項3
オーディオ又はビデオ信号(x(k))の符号化/復号化効率を向上させる方法であって、符号化器側で、前記信号が、前記信号(x(k))のサンプルのブロック毎に整数可逆変換(DCTIV)を使用して処理されており、前記整数変換は、前記整数変換(DCTIV)のサブステップを表すリフティング・ステップを使用して行われており、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われており、前記サンプル・ブロックは、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して整数変換(123、143、163)されており、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタ(168、169、160)のフィルタ係数(h(k))は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出され(121、141、161)、前記符号化オーディオ又はビデオ信号の復号化は、リフティング・ステップ及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数逆変換する工程(153、173)を含み、前記逆変換は、変換係数のブロックを処理し、出力サンプル値の対応するブロックを供給し、前記雑音シェーピングは、前記逆変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の逆変換されたブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタ(178、179,170)のフィルタ係数(h(k))は、フレーム単位で前記逆変換されたオーディオ又はビデオ信号サンプルから導き出される(151、171)方法。
請求項4
オーディオ又はビデオ信号(x(k))の符号化/復号化効率を向上させる装置であって、符号化器側で、前記信号が、前記信号(x(k))のサンプルのブロック毎に整数可逆変換(DCTIV)を使用して処理されており、前記整数変換は、前記整数変換(DCTIV)のサブステップを表すリフティング・ステップを使用して行われており、前記リフティング・ステップはラウンディング処理を含み、前記リフティング・ステップから生じるラウンディング誤差の雑音シェーピングが行われており、前記サンプル・ブロックは、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して整数変換(123,143、163)されており、前記変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の変換ブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させ、対応する雑音シェーピング・フィルタ(168、169,160)のフィルタ係数(h(k))は、フレーム単位で前記オーディオ又はビデオ信号サンプルから導き出され(121,141、161)、前記装置は、前記符号化オーディオ又はビデオ信号の復号化に適しており、前記装置は、リフティング・ステップ、及び前記リフティング・ステップの少なくとも一部の適応的雑音シェーピングを使用して前記サンプル・ブロックを整数逆変換するよう適合された手段(153、163)であって、前記逆変換は、変換係数の対応するブロックを供給し、前記雑音シェーピングは、前記逆変換されたブロックのうちの現在のブロックにおける低レベル振幅変換係数からのラウンディング雑音を低減させ、一方、前記現在の逆変換ブロックにおける高レベル振幅変換係数からのラウンディング雑音を増加させる手段と、対応する雑音シェーピング・フィルタとを備え、前記雑音シェーピング・フィルタのフィルタ係数(h(k))はフレーム単位で前記逆変換されたオーディオ又はビデオ信号サンプルから導き出される装置。
請求項5
請求項1若しくは3に記載の方法、又は、請求項2若しくは4に記載の装置であって、前記適応的雑音シェーピング・フィルタの前記フィルタ係数(h(k))が、信号サンプル・フレームの前記逆電力スペクトルを計算することによって求められ、前記フィルタ係数に対応する全極フィルタの周波数応答と前記逆電力スペクトルとの間の平均スペクトル距離を最小にするように最適化される方法又は装置。
請求項6
請求項5に記載の方法又は装置であって、前記フィルタ係数(h(k))の最適化が、前記信号サンプル・フレームの前記逆電力スペクトルに基づいた線形予測解析によって行われる方法又は装置。
請求項7
請求項5又は6記載の方法又は装置であって、前記逆電力スペクトルは、前記フィルタ係数(h(k))の前記最適化が行われる前に擬似自己相関係数に変換される方法又は装置。
請求項8
請求項5乃至7のうちの一項に記載の方法又は装置であって、前記最適化フィルタ係数(h(k))が、反復的な勾配降下最適化手順によって更に最適化される方法又は装置。
請求項9
請求項1、及び請求項5乃至8のうちの何れか一項に記載の方法、又は請求項2、及び請求項5乃至8のうちの何れか一項に記載の装置であって、前記雑音シェーピング・フィルタ(168、169、160)の前記フィルタ係数(h(k))は、前記オーディオ又はビデオ信号符号化のフィルタ・バンク部分における前記オーディオ又はビデオ信号の符号化処理において利用可能な誤差又は残差の信号からフレーム単位で導き出される(121,141、161)方法又は装置。
請求項10
請求項3、及び請求項5乃至8のうちの何れか一項に記載の方法、又は請求項4、及び請求項5乃至8のうちの何れか一項に記載の装置であって、前記雑音シェーピング・フィルタ(168、169、160)の前記フィルタ係数(h(k))は、前記オーディオ又はビデオ信号の復号化のフィルタ・バンク部分における前記オーディオ又はビデオ信号の復号化処理において利用可能な誤差又は残差の信号からフレーム単位で導き出される(121、141、161)方法又は装置。
請求項11
請求項1、及び請求項5乃至9のうちの何れか一項に記載の方法、又は請求項2、及び請求項5乃至9のうちの何れか一項に記載の装置であって、前記雑音シェーピング・フィルタ(160、168、169)は、前記整数変換内で構成されないが、前記整数変換(163)の上流に構成される回帰型又は全極前置フィルタである方法又は装置。
請求項12
請求項1、及び請求項5乃至9のうちの何れか一項に記載の方法、又は請求項2、及び請求項5乃至9のうちの何れか一項に記載の装置であって、更に、雑音シェーピング前置フィルタ(160、168、169)が前記整数変換(143)の上流に配置される方法又は装置。
請求項13
請求項3、請求項5乃至8,及び請求項10のうちの何れか一項に記載の方法、又は請求項4、請求項5乃至8,及び請求項10のうちの何れか一項に記載の装置であって、前記雑音シェーピング・フィルタ(170、178、179)は前記逆整数変換内で構成されないが、前記逆整数変換(173)の下流に配置される方法及び装置。
請求項14
請求項3、請求項5乃至8,及び請求項10のうちの何れか一項に記載の方法、又は請求項4、請求項5乃至8,及び請求項10のうちの何れか一項に記載の装置であって、更に、雑音シェーピング後フィルタ(170、178、179)が、前記逆変換整数変換(153)の下流に配置される方法又は装置。
請求項15
請求項1、請求項5乃至9,並びに請求項11及び12のうちの何れか一項に記載の方法によって符号化されたディジタル・オーディオ又はビデオ信号。
請求項16
請求項15記載の、ディジタル・オーディオ又はビデオ信号を含むか、記憶するか、又はそれに対して記録した光ディスクなどの記憶媒体。
类似技术:
公开号 | 公开日 | 专利标题
US7496506B2|2009-02-24|Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
KR100954179B1|2010-04-21|근접-투명 또는 투명 멀티-채널 인코더/디코더 구성
US7194407B2|2007-03-20|Audio coding method and apparatus
KR101344174B1|2013-12-20|오디오 신호 처리 방법 및 오디오 디코더 장치
CN101878504B|2013-12-04|使用时间分辨率能选择的低复杂性频谱分析/合成
DE60014363T2|2005-10-13|Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer
KR101171098B1|2012-08-20|혼합 구조의 스케일러블 음성 부호화 방법 및 장치
KR101508819B1|2015-04-07|멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
CN101836251B|2012-12-12|使用mdct频谱的组合编码的可缩放的语音和音频编码
KR100892152B1|2009-04-10|시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법
TWI466106B|2014-12-21|Audio or video encoder, audio or video decoder and associated method for processing multi-channel audio or video signals using variable prediction directions
JP5922684B2|2016-05-24|マルチチャネルの復号化装置
US7337118B2|2008-02-26|Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR101699898B1|2017-01-25|스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
TWI441170B|2014-06-11|音訊信號解碼器、音訊信號編碼器、用以將音訊信號解碼之方法、用以將音訊信號編碼之方法、及使用編碼脈絡之音高相依適應技術之電腦程式
TWI463790B|2014-12-01|用於信號分析與合成之適應性混成變換技術(一)
JP4043476B2|2008-02-06|スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置
EP1335353B1|2006-09-27|Decoding apparatus, encoding apparatus, decoding method and encoding method
KR100778349B1|2007-11-21|이산값의 시퀀스를 갖는 신호 처리 장치 및 방법
RU2557455C2|2015-07-20|Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
US7756350B2|2010-07-13|Lossless encoding and decoding of digital data
RU2449387C2|2012-04-27|Способ и устройство для обработки сигнала
TWI626645B|2018-06-11|編碼音訊信號的裝置
RU2464649C1|2012-10-20|Способ обработки звукового сигнала
CN101925950B|2013-10-02|音频编码器和解码器
同族专利:
公开号 | 公开日
EP2215631B1|2012-05-16|
JP4961042B2|2012-06-27|
WO2009065748A1|2009-05-28|
CN101868822A|2010-10-20|
BRPI0820467A2|2015-06-16|
KR20100113065A|2010-10-20|
RU2530926C2|2014-10-20|
MX2010005418A|2010-10-26|
US20100309983A1|2010-12-09|
CA2705228A1|2009-05-28|
CN101868822B|2012-05-30|
PT2215631E|2012-06-26|
RU2010125613A|2011-12-27|
EP2215631A1|2010-08-11|
US8503535B2|2013-08-06|
EP2063417A1|2009-05-27|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
JP2007508605A|2003-10-02|2007-04-05|フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー.ファオ|少なくとも2つの入力値を処理するための装置および方法|US10006095B2|2008-05-28|2018-06-26|Kao Corporation|Method of detecting heat-resistant fungus|RU2201654C2|1997-12-23|2003-03-27|Томсон Лайсенсинг С.А.|Способ низкошумового кодирования и декодирования|
US7275036B2|2002-04-18|2007-09-25|Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.|Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data|
DE10217297A1|2002-04-18|2003-11-06|Fraunhofer Ges Forschung|Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten|
DE10331803A1|2003-07-14|2005-02-17|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung|
US7451082B2|2003-08-27|2008-11-11|Texas Instruments Incorporated|Noise-resistant utterance detector|
DE10345995B4|2003-10-02|2005-07-07|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten|
AT391988T|2003-10-10|2008-04-15|Agency Science Tech & Res|Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms|WO2011042464A1|2009-10-08|2011-04-14|Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.|Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping|
EP2520092A1|2009-12-31|2012-11-07|Thomson Licensing|Methods and apparatus for adaptive coupled pre-processing and post-processing filters for video encoding and decoding|
WO2012137617A1|2011-04-05|2012-10-11|日本電信電話株式会社|符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体|
PL397008A1|2011-11-17|2013-05-27|Politechnika Poznanska|Image coding method|
US20200145649A1|2017-07-10|2020-05-07|Lg Electronics Inc.|Method and apparatus for reducing noise in frequency-domain in image coding system|
法律状态:
2011-11-11| A977| Report on retrieval|Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111111 |
2011-11-24| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
2012-02-22| A521| Written amendment|Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120221 |
2012-03-08| TRDD| Decision of grant or rejection written|
2012-03-14| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120313 |
2012-03-15| A01| Written decision to grant a patent or to grant a registration (utility model)|Free format text: JAPANESE INTERMEDIATE CODE: A01 |
2012-03-29| A61| First payment of annual fees (during grant procedure)|Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120323 |
2012-03-30| R150| Certificate of patent or registration of utility model|Free format text: JAPANESE INTERMEDIATE CODE: R150 |
2012-03-30| FPAY| Renewal fee payment (event date is renewal date of database)|Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
2017-03-30| LAPS| Cancellation because of no payment of annual fees|
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]